近年来,基于变压器的模型已导致自然语言处理的语言建模取得重大进步。但是,他们需要大量的数据接受(预先)训练,并且除英语以外的语言中缺乏语料库。最近,一些计划提出了从自动网络爬行获得的多语言数据集。但是,西班牙语的结果具有重要的缺点,因为与其他语言相比,它们要么太小,要么呈现出较低的质量,从而获得了次优的清洁和重复数据删除。在本文中,我们介绍了Escorpius,这是一种西班牙爬行语料库,该语料库是从附近的1 pb普通爬网数据中获得的。它是西班牙语中最广泛的语料库,其提取,纯化和重复数据删除的质量水平。我们的数据策划过程涉及一条新型的高度平行清洁管道,并包含一系列重复数据删除机制,以确保文档和段落边界的完整性。此外,我们同时维护源网页URL和WARC Shard Origin URL,以抱怨欧盟法规。 Escorpius已根据CC BY-NC-ND 4.0许可发布,可在HuggingFace上获得。
translated by 谷歌翻译
在这项工作中,我们介绍了大型标记的Logo数据集(L3D),多用途,手工标记,连续增长的数据集。它由大约770K的颜色256x256 RGB图像组成,从欧盟知识产权办事处(EUIPO)开放式注册表中提取。它们中的每一个与多个标签相关联,该标签分类图像中出现的比喻和文本元素。这些注释由Euipo评估人员分类,使用维也纳分类,比喻标记的分层分类。我们建议使用此数据集的两个直接应用,即徽标分类和徽标生成。
translated by 谷歌翻译
我们介绍了一种新的金融语言代表模型,称为财务嵌入性嵌入分析(Fineas)。在金融市场,新闻和投资者情绪是安全价格的重要驱动力。因此,利用现代NLP的财务情感分析方法的能力是识别可用于市场参与者和监管机构的模式和趋势的重要组成部分。近年来,使用从BERT等大型变压器的语言模型使用转移学习的方法已经实现了文本分类任务的最先进的结果,包括使用标记数据集的情感分析。研究人员迅速采用了这些方法的财务文本,但该领域的最佳实践不是很好的。在这项工作中,我们提出了一种基于标准BERT模型的监督微调句子嵌入的金融情绪分析的新模式。我们展示了我们的方法与Vanilla Bert,LSTM和Finbert,一项金融领域特定的伯爵相比实现了显着的改进。
translated by 谷歌翻译
In this paper we present a simple re-ranking method for Automatic Sentence Simplification based on the noisy channel scheme. Instead of directly computing the best simplification given a complex text, the re-ranking method also considers the probability of the simple sentence to produce the complex counterpart, as well as the probability of the simple text itself, according to a language model. Our experiments show that combining these scores outperform the original system in three different English datasets, yielding the best known result in one of them. Adopting the noisy channel scheme opens new ways to infuse additional information into ATS systems, and thus to control important aspects of them, a known limitation of end-to-end neural seq2seq generative models.
translated by 谷歌翻译
机器人的不安全状态是在舞台上。有关于主要机器人脆弱性及其不利后果的新兴担忧。但是,机器人和网络安全域之间仍有相当大的差距。为了填补这种差距,目前的技术报告提供了机器人CTF(RCTF),一个在线游乐场,用于从任何浏览器中挑战机器人安全性。我们描述了RCTF的架构,并提供了9个方案,黑客可以挑战不同机器人设置的安全性。我们的工作使安全研究人员提供给a)本地复制虚拟机器人方案,b)将网络设置改为模拟真实机器人目标。我们倡导机器人中的黑客动力安全,并通过开放采购我们的场景贡献。
translated by 谷歌翻译
机器人通常不会以安全为主要问题创建。对比典型IT系统,私人系统依赖于安全性来处理安全方面。鉴于前者,诸如常见漏洞评分系统(CVS)之类的经典评分方法无法准确捕获机器人漏洞的严重程度。目前的研究工作侧重于创建一个开放,自由地访问机器人漏洞评分系统(RVSS),该系统(RVSS)考虑机器人中的主要相关问题,包括a)机器人安全方面,b)对给定漏洞,c)图书馆和第三个漏洞的下游影响的评估-Party评分评估和D)环境变量,例如自漏洞泄露或网络上的曝光率。最后,提供了与CVSS对比的RVSS的实验评估,并侧重于专注于机器人安全景观。
translated by 谷歌翻译
机器人在社会中取得了相关性,越来越越来越关注关键任务。尽管如此,机器人安全性被低估了。机器人安全性是一种复杂的景观,通常需要一个跨纪的横向落后的横向学科视角。要解决此问题,我们介绍了机器人安全框架(RSF),一种方法,用于在机器人中执行系统安全评估。我们提出,调整和开发特定术语,并提供了在四个主要层次(物理,网络,固件和应用程序)之后实现整体安全评估的指南。我们认为现代机器人应视为同样相关的内部和外部沟通安全。最后,我们倡导“通过默默无闻的安全”。我们得出结论,机器人中的安全领域值得进一步的研究努力。
translated by 谷歌翻译